Lottery Ticket Hypothesis
ニューラル構造探索(NAS)
深層学習の原理
AIの圧縮・高速化
初期値とネットワーク構造の組み合わせが良いのでは?
故にoverparameterizationの方が良いのでは?
ランダムに初期化した大きなニューラルネットワークの中に,性質の良いサブネットワークが非常に高い確率で存在する
部分的には数学的に証明されている
適したアーキテクチャの自動獲得への一歩
リザバーコンピューティングににている(?)
リザバーコンピューティング
自己教師あり学習のみで、そこそこ良いモデルが作れるのでは?
新しい学習アルゴリズムが見つかりそう
Grokking
モデルサイズを上げると急激に足し算などの論理演算ができるようになったり
https://twitter.com/umiyuki_ai/status/1629289707795525632?s=20
じゃあ創発能力の源泉は何なのか?GPT-3は命令チューニングしたりコードを学習させたらCoT能力上がったからこの辺が大事なのかも。あとCoTが流行り出してからはCoTのデータで訓練させる流れも始まってるから、それも効くかもしれないという結論。
アーキテクチャの重要性
conv, invariant layrer, equivariant layer, attention, ete...
宝くじ仮説, 弱い宝くじ仮説
The lottery ticket hypothesis: finding sparse, trainable neural networks
IMPアルゴリズム
35%ぐらい刈り込むと良いことがある、適切なところまで刈り込まないと良いものは見つからない
強い宝くじ仮説
What's hidden in a randomly weighted neural network?
Edge-popupアルゴリズム
重みを変えなくても良い、刈り取るだけでOK、マ??
最大クリーク問題の計算量評価でランダムグラフを用いて計算量を評価するやつ応用できるんちゃう
証明に部分和近似
自己教師あり学習で宝くじを見つけたい、ラベルなしの時空間モデルに置いて良い世界モデルが得られそう
LLaMAのパラメータ70億のモデルをチューニングしたらGPT-3(パラメータ1750億)に匹敵したらしい
しかも学習データにはGPT-3を使って生成したものを使っててトータルのコストは10万円以内で出来たのだとか
https://twitter.com/t_andou/status/1635448857315377152?s=20
PACベイズ理論の観点に基づく宝くじ仮説の分析
https://www.jstage.jst.go.jp/article/pjsai/JSAI2023/0/JSAI2023_3Xin448/_pdf
強い宝くじ仮説におけるHyperNetworksを用いた入力データごとに異なるサブネットワークの発見
https://www.jstage.jst.go.jp/article/pjsai/JSAI2023/0/JSAI2023_3Xin464/_article/-char/ja/
The Remarkable Robustness of LLMs: Stages of Inference?
https://arxiv.org/abs/2406.19384
大規模言語モデルのレイヤーを削除や交換しても、72-95% の予測精度を維持することを実証
レイヤー数が多いモデルほど、レイヤー操作に対する頑健性が高いことを確認